查看原文
其他

悉见刘洋:三维视觉数字孪生已到临界点【星特写】

smart 联想之星 2021-08-11


如果你在故宫看到这条龙,不是你眼花了,这是悉见科技运用AR技术小露了一手。


近日,联想之星对话悉见科技创始人&CEO刘洋,剖析一家AR&AI创业公司的未来梦想及实现路径。


"悉见"取义于“洞悉所见”,是一家致力于混合现实的AI公司。产品服务包括悉大师MAXTER.ai、智能眼镜X-series AR Glasses、悉见大脑XARC.ai。刘洋是北京大学计算机视觉与图形图像硕士,曾任职于网易有道、小米等知名科技企业。


刘洋喜欢动漫《海贼王》,他的办公室处处可见《海贼王》元素。如同阿里受到金庸武侠小说启发而使用花名体系,在悉见,刘洋和路飞一样被称为“船长”,几位合伙人中有“萨博”,有“弗兰奇”,有“索隆”,所有的员工都是“船员”,也有自己的花名。这是理工男追求纯粹工作氛围的方法之一。


悉见成立三年来,遇到过不少坎儿,为发工资,刘洋甚至曾向亲戚朋友借几百万。钱的压力还在其次,更大的压力来自对自身路径的不确定性。


AR概念最火的2016年,AR眼镜遭到热炒,悉见也差点被带跑节奏。“2016年我们有点荒废,但在2016年底我们逐渐摸到门道了,所以我想和那个时候的自己说,别太受市场情况的影响,把精力往更底层的更长期的事情去投入。”


如今的悉见,以悉见大脑为智慧引擎,以X系列AR眼镜为智能终端,以悉大师(MAXTER.ai)为赋能型Xaas企业解决方案平台,提供专业化定制方案,为工业、安防、文旅、新零售等各行业客户全面赋能,助力提升体验效果及作业效率。


刘洋说,他在进入这个行业时,对AR的愿景是,人人都戴着AR眼镜在大街上走。


悉见越来越靠近这个愿景。6月底,悉见的第三代眼镜将面世,从外观、重量上已经和普通眼镜相差无几,视场角达到50°以上,基本满足交互的前进式的体验与需求。你可以直接戴着这款眼镜在故宫玩,在街上玩,这可能是全球第一款支持超大规模场景交互的AR眼镜。XARC.ai悉见混合现实大脑,将视觉智能、5G与边缘计算结合,把几年前碎片化的桌面级或房间级AR/VR体验,快速推进到街道级、城市级超大规模多人XR交互体验。


站在数据爆发的临界点上,盈利对悉见来说不是问题,而在不久的将来,你可以戴着AR眼镜去到任何你想去的地方,体验比科幻小说还要迷人的未来世界。


悉见科技创始人&CEO刘洋


以下为联想之星(简称“LS”)对话刘洋:


三层业务架构,主攻消费级高精地图


LS:悉见现在的团队配置是怎么样的?


刘洋:公司的业务架构分三层,最底层是悉见大脑团队,做深度学习、三维视觉、惯性导航,团队必须把这几种技术综合起来,也需要做一些软件算法与硬件相结合的工作,是一个综合的门槛很高的团队。我们做的是系统化工程,这是我们这几年能够比其他团队技术领先很多的一个重要原因。悉见大脑团队是我们未来创造巨大价值的一个重要的支撑点。


再往上一个团队有近二十人,叫Xaas平台层。外界对AR行业的理解可能主要是AR眼镜,其实我们在眼镜上投入的成本和人员都很少,我们关注眼镜里最核心的感知层面,这与悉见大脑团队是结合的。Xaas平台还有软件团队,我们希望做成一个可以让成千上万团队,他们不需要懂计算机视觉、深度学习,不需要懂slam(注:即时定位与地图构建,或并发建图与定位)等等,就可以开发出自己的超大规模场景的混合现实交互,这是Xaas平台的价值。


再往上一层是悉大师团队,大概有二十多个人,有销售、市场、项目开发、产品管理,这个团队能同时做几个项目。这个团队做项目并不是为了挣多少钱,而是为了让别人会用我们的Xaas平台和悉见大脑。他们的使命是做标杆,所以我们这个团队只做特别大的典型客户,比如工业界的奔驰,旅游也只做4A、5A景区,像圆明园、彝人古镇,现在正在与故宫合作。



LS:与国内外同类的竞品相比,悉见的核心竞争力在哪儿?


刘洋:从一开始我们就考虑过这个问题,小公司在手机+移动互联网,或者AR+AI这样的超级大风口上找准自己的定位非常重要。赛道上有很多团队,巨头就不说了,小团队造出来一个眼镜,就说要吊打苹果微软,我觉得就是瞎扯。


我有蛮理性的思维模型,其实在小米出来之前,我没有想过要去创业做这件事,但后来我觉得这个技术有很多基础设施类的、人工智能数据类的机会,而在短时间内,小米内部很难投入很大资源在这件事上。后来我经过长时间考虑决定出来做这件事,从2015年底到现在已经有三年多将近四年了,我们做了很多别人看不见的甚至是看不懂的,一些很底层的本质的东西。


之前很多国外媒体说“AR is a snack, but not a meal”,因为AR这个场景很碎片化,像支付宝扫福字;ARKit把一个东西摆在桌面上与桌面互动;HoloLens、Magic Leap,用深度摄象头的方案可以做一百平米左右的小空间体验。


我进入这个行业时,对AR的愿景是人人都戴着AR眼镜在大街上走,我们生活在一个数字和物理孪生的时代。那时它的基础设施是什么?它是用我们戴着的消费级眼镜,它的计算能力和摄像头需要对超大规模的物理场景进行重现、感知和理解,而且你需要解决连接性的问题,把数字化真正融合到物理世界里去。


悉见科技全新AR眼镜X3


为此我们做了很多尝试和突破,包括多传感器的融合,把神经网络、深度学习、高阶语义放进来,花大量时间进行模型训练。我们也不怕巨头进来,这是我们倒金字塔的基座,是最核心的地方。


之所以说是倒金字塔,是因为我觉得这个可以成为非常大的产业级别,甚至是阿里这个级别。我们与其他公司的不同,就在于我们用这几年的积累去解决了这样一个本质问题,我们将其命名为“消费级核心地图”


LS:悉见做了这么多事情,包括这么多业务线,用一句话来概括,你们现在在做什么?


刘洋:我们在做AR的基础设施——消费级的高精地图,换句话说叫做“数字孪生”。


我先给你提供所有商场、景区、博物馆这些流量较大的场景的地图,在这些地图中可以用我们的眼镜,我们现在已经适配好了主流手机,你也可以用不同的终端,这就是我说的金字塔的往上一层了,这一层你可以用其他任何设备。能做什么呢?在我们地图的基础上,它们用消费级的计算力,可以做到与数字世界和物理世界真正融合的、数字世界持久化的、混合现实的多设备交互。比如说我们采了三里屯的地图,一个游戏开发者可以在这里开发一个打僵尸的游戏,所有的人拿手机就可以在这儿打僵尸。


再往上一层就是应用层,你可以认为应用层和美团里成千上万商家是一个道理,美团提供底下的架构和数据服务的平台,这些商家就可以在上面发布他们的菜品和营销内容。我们可以给公园、商场提供服务,还可以给做社交的、做游戏的IP提供服务。手机里所有做纯数字化的体验,只要有诉求,需要把数字化的内容与物理世界建立联系,就可以用我们的地图。


我们团队的三层架构,其实就是我们要做的事情的三层架构,最重要的就是我们提供一个悉见大脑这样的高精地图的底层基座,加上我们的引擎,中间层各种消费级的硬件的AR设备我们都支持,再往上一层,是成千上万个开发者可以开发自己的应用。


在数据爆发的临界点,盈利不是问题


LS:在AR云这条云集了苹果、谷歌、微软、Facebook、亚马逊、Niantic、6D.ai等巨头和明星创业公司的赛道上,悉见大脑的核心优势是什么?这些优势将为悉见的产品和解决方案带来哪些不同?


刘洋:国外有几家也在做这个事情,而且大家能够看到,他们和我们做的地图,不仅可以在AR场景使用,甚至自动驾驶行业也对我们非常感兴趣。国外的Bluevision原来和我们做一样的事情,他们发了纽约、旧金山、伦敦几个城市一些很有意思的地图,后来融资几千万美金,没过多久就被Lyft收购,然后Lyft就上市了,这是AR与自动驾驶行业交叉的一个典型。


有软硬件结合的能力非常重要。海外还有几家技术很强的公司,像6D.ai,在做类似的事情。但6D.ai是用手机直接建图,传感器比较弱,所以建图质量很差,它做的地图规模就很小,只能做到百平米或者几百平米这个级别。


我们要让一个新的用户进入这个场景,很快就能完成重定位,认识这个世界,我们能做到秒级的重定位,让你一打开设备就知道这个世界是什么样子,把所有东西加载出来。为此我们做了三步。


第一步,在我们做的采集设备上,在硬件传感器的融合上做了很多工作,这形成了我们的核心壁垒。


第二步,我们有全局建图的能力,所以能做超大规模场景。比如ARKit的里程计,走一段时间它就有漂移了,而我们能把漂移解决好,让你在一百万平米的地方,从这头走到那头一点都不漂移。


第三步,可能是最核心的一件事,就是我们用了神经网络,用了深度学习高阶语义的特征,所以我们能解决很多非常有挑战的纹理弱的、暗光的场景,空旷的场景,所以故宫的混合现实交互可能全世界只有悉见能做。



如果再说一点,就是我们到了一个数据爆发的临界点,因为我们已经解决了大规模数据采集的工程化问题。我们做一个背包小几万块钱,我们做一百个背包就可以很快地采集十亿平米的地图,把全中国的线下流量占领,同时国外业务也在开展。


说一个时间上的数据,五彩城这个商场很大,我们用一个设备一个小时就能采完,就像逛街一样,男生逛街的速度就可以去采集地图数据,这也是非常高效的。我们CTO萨博试过开车用我们背包居然也能建地图,事实上自动驾驶行业已经盯上我们了。所以我说我们到了数据爆发的临界点,就是因为我们已经有大规模做数据的能力了。


LS:那未来有什么样的规划?


刘洋:我用三个数字来描述规划:一百、一千、一万。


一百:我们要在今年8月之前给我们主办的XGDC比赛准备好地图,在一些新一线城市的地标建筑上做一百张地图,这一百张我们可以完全自己采。XGDC比赛的联合主办方包括巨头企业和地方政府,一方面让开发者了解并使用悉见大脑;另一方面通过这个比赛让巨头和政府和我们一起把地图做起来。


一千:我们要在今年底做一千张地图,我们计划做十来个背包,找几个数据代理商。


一万:到明年底要做一万张地图,就是四千个商场+五千个景区+一千个公共区域。这一万张地图基本上就可以把线下流量抓在我们手里了,这可能有十亿平地图,是我们未来最基础的东西,这是在采集地图的量级上。


同时我们在技术上也进行突破,这需要用我们的专业设备采集,我们采一万张地图可能用一百个设备就可以了。但比如说我们在成府路上采北京大学、清华大学,中间还有一些路面怎么办呢?现在一些主流手机厂商OPPO、vivo、三星都在找我们要东西,要可以用手机去建图的众包能力,那更有意思了,你让一般的用户在玩某款游戏或者玩某款社交软件的时候就自动把精度要求不高的地方采集了,到时就是点连成线、线连成面的状态了。


LS:目前产品是如何定价的?


刘洋:这个行业目前还比较早期,所以客户的需求是定制化的,这也是我们需要解决的问题,如何在客户定制化的过程中逐步让我们的产品标准化。内部不需要投入太多就可以让客户方便地使用,这也是我说的Xaas平台的价值。


现在我们的客户可以分为两种体系,一种是完全to B的体系,一种是B2B2C的体系。我的业务完全是to B的,但我的B端客户有的是to C的,比如一些超级IP和社交APP,有的客户是to B的,比如SAP。


这两套我们是用不同的方式去做的,我给团队的KPI也是不一样的,给to B团队的KPI是客户的数量及营收额。即使我们与奔驰合作完,再和宝马、北汽、一汽等客户合作,还是有很多定制化,每家除了底层数据、地图和硬件,上面的业务流程都不一样,定制化是我们希望让更多的开发团队能够参与进来做的。


B2C团队的KPI是地图面积或者说POI (Place of Interest,即一个地标高精地图)。我们所说的POI比原来LBS的POI更大,故宫、圆明园以及三里屯、国贸,每个地方都是一个POI。我给团队定下POI,盈收模式当然也不一样。to B的甲方需求明确,所以我们可以直接形成一个合同定单。但是这个模式,比如我做一个商场,做一份地图是可以给一万个开发商用的。


这部分盈收我们前期会投入一定的成本,包括采集设备、数据采集、数据运营等。但之后我根据你的场地面积、设备授权数、调用次数收费,就形成源源不断的现金流了。


长期投入,做一家比美团还大的公司


LS:悉见成立三年了,你一开始创业的时候有没有定过三年计划?现在计划的完成度如何?


刘洋:刚创业的时候就是年轻人的野心,而现在有了确切的路径。现在我可能给创业打70分,但我对我现在的状态能打85分以上。我觉得我每个阶段都在成长,而且我成长速度非常快,做了很多突破。


我原来只是一个架构师,不喜欢和人打交道。其实到现在我还是完全排斥无目的社交,比如老乡会、酒会什么的我从来不去。但我们从今年3月份决定要做一些市场化工作之后,比如政府关系,我感觉我还蛮喜欢的。在每个阶段,如果我觉得该去做一些什么事情,当我下定决心去做之后,我觉得我是能做好的。


LS:对三年前打算创业的自己说一句话,你会说什么?


刘洋:2016年有很多人乌泱泱地说要做AR眼镜,我们有点被带节奏。一个公司的投入有长期的有短期的,我们应该再减少一些表象的东西,按我们自己想的去做,把精力往更底层的更长期的事情去投入。


我觉得2016年我们有点荒废,但在2016年底我们逐渐摸到门道了,所以我想和那个时候的自己说,别太受市场情况的影响。


LS:随着AR和AI技术的发展,悉见会在未来生活中发挥什么样的作用?


刘洋:我们希望做一家比美团还大的公司。美团在五年前十年前做了很多别人不愿意做的脏活累活,他们也是在做数字化。我们提供的服务模式和美团很像,如果我只做地图,可能和高德一样,但我们希望能够提供偏应用层的、更系统化更深度的服务。





相关阅读:




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存